#agentes llm

COLLEAGUE.SKILL: Skills IA Generados con Destilación Experta

Transforma conocimiento experto en skills de IA portátiles y corregibles con COLLEAGUE.SKILL. Descubre su flujo de trabajo y despliegue.

2026-06-01 · 2 min

La superficie que pruebas no es la que se rompe

La vulnerabilidad de los LLMs ante inyecciones de prompt no depende solo de la superficie, sino del par modelo-superficie. Estudio revela puntos ciegos.

2026-06-01 · 2 min

Arquitectura de runtime de agente LLM con alcance organizacional para ciberseguridad regulada

Descubre la arquitectura de runtime de agentes LLM con alcance organizacional para SOCs financieros, con auditoría, supervisión humana y seguridad integrada.

2026-06-01 · 2 min

Disponibilidad de habilidades en agentes LLM: estudio SkillsBench

Según SkillsBench, la disponibilidad de habilidades en agentes LLM mejora el éxito en tareas hasta 36%. La granularidad apenas afecta.

2026-06-01 · 1 min

Desanonimización: de pistas débiles a identidades con LLM

Los agentes LLM logran hasta un 79.2% de éxito en desanonimización del Netflix Prize con pistas débiles. Estudio revela riesgos de privacidad.

2026-06-01 · 1 min

Sophrosyne: Moderación para la exploración agentiva de datos relacionales

Agentes Text2SQL sobreexploran API y generan consultas inexactas. Sophrosyne introduce directivas que reducen sobreexploración 4.6x y mejoran precisión 12.4%.

2026-06-01 · 2 min

BlueFin: Evaluación de Agentes LLM en Hojas de Cálculo Financieras

BlueFin: el nuevo benchmark para agentes LLM en hojas de cálculo financieras. Modelos frontier logran menos del 50% en tareas complejas. ¡Descubre los resultados!

2026-06-01 · 3 min

Los agentes basados en LLM de frontera pueden superar el cuello de botella de curaduría de ontologías para fenotipos naturales.

Agentes LLM de frontera superan el cuello de botella en la curaduría de ontologías de fenotipos naturales. Optimiza la gestión de datos biológicos con inteligencia artificial avanzada.

2026-05-30 · 2 min

BenchTrace: Un benchmark para probar la capacidad de reflexión y evolución controlada en agentes LLM

BenchTrace prueba reflexión y evolución controlada en agentes LLM. Descubre cómo este benchmark evalúa el comportamiento adaptativo y mejora el rendimiento de los modelos.

2026-05-30 · 2 min

GRASP: Proponedor de Habilidades Consciente de la Regresión con Puerta para Agentes LLM que se Auto-mejoran

2026-05-30 · 1 min

SkillsInjector: Construcción Dinámica de Contexto de Habilidades para Agentes LLM

2026-05-30 · 3 min

Localmente coherente, globalmente incoherente: Acotando la incoherencia composicional en agentes LLM de múltiples componentes

Local vs Global: Cómo acotar la incoherencia composicional en agentes LLM - Estrategias SEO para equilibrar enfoques locales y globales y mejorar la coherencia en modelos de lenguaje.

2026-05-30 · 2 min

Dinámica Evolutiva de la Cooperación en Sistemas de Agentes LLM de Próxima Generación: Una Extensión Empírica entre Proveedores

2026-05-29 · 2 min

PersonaAgent: Uniendo Memoria y Acción para Agentes LLM Personalizados

PersonaAgent integra memoria y acción en agentes LLM para interacciones más inteligentes y contextuales.

2026-05-29 · 3 min

AutoSizer: Dimensionamiento Automático de Circuitos Analógicos y de Señal Mixta mediante Agentes de Modelos de Lenguaje Grande (LLM)

AutoSizer usa agentes LLM para dimensionar automáticamente circuitos analógicos y mixtos. Optimiza diseños electrónicos con inteligencia artificial.

2026-05-29 · 2 min

GroundAct: ¿Pueden los agentes LLM fundamentar acciones en estados ambientales?

2026-05-29 · 1 min

DynaSchedBench: Benchmarks de Programación Dinámica Calibrados y Paradoja de la Observabilidad en Agentes de Programación basados en LLM

DynaSchedBench: benchmarks calibrados y la paradoja de la observabilidad en agentes LLM. Descubre cómo estos desafíos afectan la evaluación y el rendimiento de los modelos.

2026-05-29 · 2 min